export MASTER_ADDR=10.238.247.11  # 或者另一台机器的 IP，只要固定一个就行
export MASTER_PORT=12355
export NCCL_SOCKET_IFNAME=enp1s0f0 # <--- 修改这里
export NCCL_DEBUG=INFO

GPUS_PER_NODE=2 # 设置你想在每个节点上使用的 GPU 数量 # 与节点 0 设置相同
NNODES=2        # 设置总节点数 # 与节点 0 设置相同

torchrun \
    --nproc_per_node=$GPUS_PER_NODE \
    --nnodes=$NNODES \
    --node_rank=1 \
    --master_addr=$MASTER_ADDR \
    --master_port=$MASTER_PORT \
    multi_node_fabric.py --num_nodes $NNODES --gpus_per_node $GPUS_PER_NODE